Linear temporal logic (LTL) is a widely-used task specification language which has a compositional grammar that naturally induces temporally extended behaviours across tasks, including conditionals and alternative realizations. An important problem i RL with LTL tasks is to learn task-conditioned policies which can zero-shot generalize to new LTL instructions not observed in the training. However, because symbolic observation is often lossy and LTL tasks can have long time horizon, previous works can suffer from issues such as training sampling inefficiency and infeasibility or sub-optimality of the found solutions. In order to tackle these issues, this paper proposes a novel multi-task RL algorithm with improved learning efficiency and optimality. To achieve the global optimality of task completion, we propose to learn options dependent on the future subgoals via a novel off-policy approach. In order to propagate the rewards of satisfying future subgoals back more efficiently, we propose to train a multi-step value function conditioned on the subgoal sequence which is updated with Monte Carlo estimates of multi-step discounted returns. In experiments on three different domains, we evaluate the LTL generalization capability of the agent trained by the proposed method, showing its advantage over previous representative methods.
translated by 谷歌翻译
归纳逻辑推理是图上的基本任务之一,该任务旨在从数据中概括模式。已经针对传统图形数据集(例如知识图(KG))进行了广泛研究此任务,并具有代表性的技术,例如归纳逻辑编程(ILP)。现有的ILP方法通常假设从具有静态事实和二进制关系的KG学习。除KGS外,图形结构在其他应用程序中广泛存在,例如视频说明,场景图和程序执行。虽然感应性逻辑推理对这些应用也有益,但将ILP应用于相应的图是非平凡的:它们比KGS更复杂,KG通常涉及时间戳和N-元素关系,实际上是一种具有时间事件的超透明的类型。在这项工作中,我们研究了两个这样的应用,并建议用时间间隔代表它们为超图。为了在此图上进行推理,我们提出了遍历此超图的多启动随机B-Walk。将其与路径矛盾算法相结合,我们提出了一种有效的向后链接ILP方法,该方法通过从时间和关系数据中概括来学习逻辑规则。
translated by 谷歌翻译
教深入的强化学习(RL)代理在多任务环境中遵循说明是一个挑战性的问题。我们认为用户通过线性时间逻辑(LTL)公式定义了每个任务。但是,用户可能未知的复杂环境中的某些因果关系依赖性未知。因此,当人类用户指定说明时,机器人无法通过简单地按照给定的说明来解决任务。在这项工作中,我们提出了一个分层增强学习(HRL)框架,其中学习了符号过渡模型,以有效地制定高级计划,以指导代理有效地解决不同的任务。具体而言,符号过渡模型是通过归纳逻辑编程(ILP)学习的,以捕获状态过渡的逻辑规则。通过计划符号过渡模型的乘积和从LTL公式得出的自动机的乘积,代理可以解决因果关系依赖性,并将因果复杂问题分解为一系列简单的低级子任务。我们在离散和连续域中的三个环境上评估了提出的框架,显示了比以前的代表性方法的优势。
translated by 谷歌翻译
近年来,视觉问题应答(VQA)在近年来,由于了解来自多种方式的信息(即图像,语言),近年来近年来在近年来的机器学习社区中获得了很多牵引力。在VQA中,基于一组图像提出了一系列问题,并且手头的任务是到达答案。为实现这一目标,我们采用了一种基于象征的推理方法,使用正式逻辑框架。图像和问题被转换为执行显式推理的符号表示。我们提出了一种正式的逻辑框架,其中(i)图像在场景图的帮助下将图像转换为逻辑背景事实,(ii)问题被基于变压器的深度学习模型转换为一阶谓词逻辑条款,(iii)通过使用背景知识和谓词条款的接地来执行可靠性检查,以获得答案。我们所提出的方法是高度解释的,并且可以通过人容易地分析管道中的每个步骤。我们验证了我们在CLEVR和GQA数据集上的方法。我们在Clevr DataSet上实现了99.6%的近似完美的准确性,可与艺术模式相当,展示正式逻辑是一个可行的工具来解决视觉问题的回答。我们的模型也是数据高效,在仅在培训数据的10%培训时,在缩放数据集中实现99.1%的准确性。
translated by 谷歌翻译
演员 - 评论家RL广泛用于各种机器人控制任务。通过从变分推理(VI)的角度来看演员 - 评论仪RL,训练策略网络以获得给定最优标准的动作的近似。然而,在实践中,演员 - 评论家RL可能会因摊销缺口而产生次优政策估计,并勘探不足。在这项工作中,受到先前使用Hamiltonian Monte Carlo(HMC)在VI中的启发,我们建议将演员 - 评论家RL的政策网络与HMC纳入其中,被称为{\ IT Hamiltonian政策}。因此,我们建议根据HMC从基础政策中发展行动,我们提出的方法具有许多好处。首先,HMC可以改善策略分布,以更好地近似后,因此降低摊销间隙。其次,HMC还可以将勘探更多到具有更高Q值的动作空间区域,提高勘探效率。此外,我们提出了一种新的LEAPFROG运算符来模拟HAMILTONIAN Dynamics。最后,在安全的RL问题中,我们发现所提出的方法不仅可以改善实现的回报,还可以通过丢弃可能的不安全行动来减少安全约束违规行为。在连续控制基线的综合实验实验中,包括Mujoco和Pybullet Roboschool,我们表明该方法是对以前的演员批评方法的数据有效且易于实施的改进。
translated by 谷歌翻译